Pandas describe方法详解

df.describe() 是 Pandas 中非常常用的统计汇总函数，用于快速查看数值列的统计摘要信息.

基本用法

python

df.describe()

返回结果类似如下：

	count	mean	std	min	25%	50%	75%	max
年龄	100	35.4	10.2	18	27	34	42	60

每一列的解释如下：

指标	含义
count	非空值数量（缺失值不计算）
mean	平均值
std	标准差（衡量数据的离散程度）
min	最小值
25%	25% 分位数（第一四分位数）
50%	50% 分位数（中位数）
75%	75% 分位数（第三四分位数）
max	最大值

这些值非常适合用来观察数据的集中趋势、分布范围和是否存在异常值。

示例代码：

python

import pandas as pd

data = {
    '年龄': [25, 30, 35, 40, 45, None],
    '工资': [5000, 6000, 7000, 8000, 9000, 10000]
}
df = pd.DataFrame(data)

print(df.describe())

输出（省略格式）：

              年龄          工资
count   5.000000      6.000000
mean   35.000000   7500.000000
std     7.905694   1870.828693
min    25.000000   5000.000000
25%    30.000000   6250.000000
50%    35.000000   7500.000000
75%    40.000000   8750.000000
max    45.000000  10000.000000

注意：

年龄只有 5 个有效值，所以 count 是 5。
工资 6 个值都不缺失，所以 count 是 6。

扩展参数

df.describe(include='all')：同时显示非数值列（如字符串、分类列）的统计信息。
df.describe(include=['object'])：只统计 object 类型（通常是字符串）的列。
df.describe(percentiles=[.1, .9])：指定分位点，比如10%和90%。

基本用法 ​

每一列的解释如下： ​

示例代码： ​

扩展参数 ​

基本用法

每一列的解释如下：

示例代码：

扩展参数